\chapter{用可观测变量评价不可观测因素带来的偏误}
Altonji写了三篇论文，Altonji et al. (2005)比较详细， Altonji et al. (2008)比较简明扼要，Altonji et al. (2002)是理论证明，数学多。
\section{引子}
观察下面这个模型，
\begin{align}\label{eq_alt0}
	C = &\bm{X'\beta}+u\\\label{eq_alt1}
	Y = &\bm{X'\gamma}+\alpha\cdot C +\varepsilon\\
	\begin{pmatrix}
		u\\\varepsilon
	\end{pmatrix} \sim& \mathcal{N}\left[\begin{pmatrix}
	0\\ 0
\end{pmatrix},\begin{pmatrix}
1&\rho\\ \rho&1
\end{pmatrix}\right]
\end{align}
其中，$ C $是核心变量，$ \bm{X} $是可观测变量，$ Y $是因变量。如果\eqref{eq_alt1}式没有遗漏不可观测因素，那么$ \rho=0 $。\textbf{这一点可以从\eqref{eq_alt1}式明显看出，因为$ \bm{X} $是外生的，这意味着$ \bm{X} $与$ \varepsilon $是没有联系的，而$C  $在\eqref{eq_alt0}式中被分割成两部分，一个部分是外生的$ \bm{X'\beta} $，一部分是$ u $，如果$ C $要和$ \varepsilon $产生联系(即内生性)，必然是$ u $与$ \varepsilon $产生了相关。}

因此，作者通过设定不同的$ \rho $来观察$ \alpha $的估计值，相当于在不同内生性程度下，看处理效应的大小。但$ \rho $是未知的，我们需要一种方式来粗略地判断$ \rho $。

\section{原理}
$ C $对$ \bm{X'\gamma} $和$ \varepsilon $的线性投影如下表达，
\begin{equation}\label{eq_alt2}
 Proj(C|\bm{X'\gamma,\varepsilon})=\phi_0+\phi_{\bm{x'\gamma}}\bm{X'\gamma}+\phi_{\varepsilon}\epsilon	
\end{equation}

那么$ \phi_{\bm{x'\gamma}} $和$ \phi_{\varepsilon} $分别表达的就是$ C $对观测变量和不可观测变量的依赖程度。作者提出如下假设，
\[ \phi_{\bm{x'\gamma}} = \phi_{\varepsilon} \]
在这个假设下得到的$ \alpha $的估计值可以看作是真正的$ \alpha $的下界，而将$ C $看作外生，即直接回归\eqref{eq_alt1}式得到的$ \alpha $看作是上界。

在实践中，我们通常用另外一种方法来度量内生性的严重程度。作者证明了下面这个等式与条件\eqref{eq_alt2}式是等价的，
\begin{equation}\label{eq_alt3}
 \frac{E(\varepsilon|C=1)-E(\varepsilon|C=0)}{var(\varepsilon)}=\frac{E(\bm{X'\gamma}|C=1)-E(\bm{X'\gamma}|C=0)}{var(\bm{X'\gamma})}	
\end{equation}

为什么要特别提出这个等式，因为这个等式有很强的经济含义，后面会发现很有用。它的含义在于$ C $和不可观测变量的分布的均值的关系在进行方差调整后与$ C $和可观测变量的经过方差调整后的均值是一样的。注意到\eqref{eq_alt3}式左(或右)边的分子实际上是$ \varepsilon $(或$ \bm{X'\gamma} $)对$ C $回归的系数。

现在我们来看看估计$ \alpha $的偏误公式。\eqref{eq_alt0}式可以写成$ C=\hat{C}+\hat{u} $，然后代入\eqref{eq_alt0}式，整理得，
\[ Y=\alpha \hat{u}+\bm{X'}(\gamma+\alpha\bm{\beta})+\varepsilon \]
因为$ \hat{u} $与$ \bm{X} $无关，省略上式中关于$ \bm{X} $的项不影响$ \alpha $的估计。因此通常的偏误公式可以一笔写出，
\begin{align*}
	p\lim \hat{\alpha} = & \alpha + \frac{cov(\hat{u},\varepsilon)}{var(\hat{u})}\\
	= & \alpha + \frac{cov(C,\varepsilon)}{var(\hat{u})}\hspace{2em}\text{注意\eqref{eq_alt0}式。因为}\bm{X}\text{与}\varepsilon\text{不相关}\\
	= & \alpha + \frac{var(C)}{var(\hat{u})}\cdot \frac{cov(C,\varepsilon)}{var(C)}\\
	= & \alpha + \frac{var(C)}{var(\hat{u})}\cdot [E(\varepsilon|C=1)-E(\varepsilon|C=0)]\hspace{2em}\text{OLS公式}
\end{align*}
现在可以好好利用一下\eqref{eq_alt3}式，把\eqref{eq_alt3}式稍微做个变换，
\begin{equation}\label{eq_alt_delta}
	\delta = \frac{[E(\varepsilon|C=1)-E(\varepsilon|C=0)]/var(\varepsilon)}{ [E(\bm{X'\gamma}|C=1)-E(\bm{X'\gamma}|C=0)]/var(\bm{X'\gamma})}	
\end{equation}
即不可观测变量与C的关系现在是可观测变量与$ C $的关系的$ \delta $倍，在\eqref{eq_alt3}式中$ \delta=1 $。这个变换的好处在于，我们可以利用\eqref{eq_alt_delta}式来代入前面那个偏误公式中去。

现在的逻辑是这样的，如果估计得到的$ \hat{\alpha} $完全就是偏误，根本就没有因果效应的话，那么$ \delta $得多大才行？好，注意看，没有因果效应，就意味着$ \alpha=0 $，那么$ \hat\alpha $就全部是偏误，而这个偏误的大小此时可以利用\eqref{eq_alt_delta}式用$ \delta $来表达，
\begin{align}
	\hat{\alpha} = Bias = &\frac{var(C)}{var(\hat{u})}\cdot [E(\varepsilon|C=1)-E(\varepsilon|C=0)]\\\label{eq_alt_delta2}
	= &\frac{var(C)}{var(\hat{u})}\cdot \delta\cdot  [E(\bm{X'\gamma}|C=1)-E(\bm{X'\gamma}|C=0)]\cdot \frac{var(\varepsilon)}{var(\bm{X'\gamma})}
\end{align}
上面这个式子，除了$ \delta $未知，其他都是已知，因此上面这个式子就可以倒推出$ \delta $，也就是说，这个大小的$ \delta $可以使得$ \hat{\alpha} $全部是偏误，没有因果效应。$ \delta $表达的就是不同的C对不可观测变量分布的均值的推动必须是对可观测变量均值推动的$ \delta $倍。一般而言，如果你捕捉了足够多的因素，$ C $的变化一般不会对$ \varepsilon $造成太大影响，因此$ \delta $是比较小的。

现在再来看\eqref{eq_alt_delta2}式，如果你倒推出的$ \delta $很大，说明必须要很大的$ \delta $才能使得$\hat{\alpha} $全部是偏误。比如你算出来$ \delta=2 $，意味着C对不可观测变量的影响要超过他对可观测变量影响的2倍才会使得估计的$ \hat{\alpha} $全部是偏误，一般情况下，超过1了，这就不太可能了。所以$ \delta $这么大，只能说明估计的$ \alpha $不会全部是偏误，还是有因果效应在里面的。所以，很大的$ \delta $意味着很小的内生性。\textbf{一般情况下，作者认为超过1的话，就是比较大的了，因果效应还是很明显的}。


\section{另一个更加简单的版本}
Bellows and Miguel (2009)根据Altonji et al. (2005)的思路，在附录A中构建了一个更加简单的版本，非常容易使用。

他的主要模型如下：
\begin{align}\label{eq_alt4}
	y = &\alpha \cdot C + \gamma \cdot q + \varepsilon\\\label{eq_alt5}
	q = & \bm{X}'\bm{\beta}+\hat{q}
\end{align}

其中，$ C $是核心变量，$ q $是遗漏变量。如果$ q $从\eqref{eq_alt4}式遗漏，那么有标准的遗漏变量偏误公式，
\begin{equation}\label{eq_alt_nc}
 p\lim\hat{\alpha}_{OLS,NC}=\alpha_0+\gamma\cdot \frac{Cov(C,q)}{Var(C)}	
\end{equation}


我们也可以把可观测的变量也纳入回归，那么，
\[ y = \alpha \cdot C + \bm{X}'\bm{\beta}+ \varepsilon \]

此时对应的遗漏变量偏误可以写成，
\begin{equation}\label{eq_alt_c}
 p\lim\hat{\alpha}_{OLS,C}=\alpha_0+\gamma\cdot \frac{Cov(C,\hat{q})}{Var(C)}	
\end{equation}

我们的目的是要衡量$ \alpha_0 $等于0时，这些等式必须要满足一个什么关系。或者说$ C $与不可观测的$ \hat{q} $关系是多大时才能使得$ \alpha_0=0 $。为达此目的，将\eqref{eq_alt_nc}减去\eqref{eq_alt_c}式，可以消掉$ q $，有，
\begin{equation}\label{eq_alt_sub}
 \hat{\alpha}_{OLS,NC}-\hat{\alpha}_{OLS,C} = \gamma \cdot \frac{Cov(C,\bm{X}'\bm{\beta})}{Var(C)}	
\end{equation}

然后令\eqref{eq_alt_c}式中的$ \alpha_0=0 $再除以\eqref{eq_alt_sub}式，可以得到，

\[ \frac{\hat{\alpha}_{OLS,C}}{\hat{\alpha}_{OLS,NC}-\hat{\alpha}_{OLS,C}}=\frac{cov(C,\hat{q})}{cov(C,\bm{X'\beta})} \]

这就是在$ \alpha_0=0 $下导出的等式。它有着重要的经济含义，它表达的是感兴趣变量$ C $与不可观测部分$ \hat{q} $的关系相对于感兴趣变量$ C $与可观测部分的关系的相对大小。而这个相对大小是在$ \alpha_0=0 $下导出的，因此我们要看这个大小是多大，合不合理。比如如果这个大小超过1，我们觉得不太合理，这就意味着因果关系不太可能全部是0。